Probabilités et statistiques : la science de l'incertitude : définir les relations par les distributions conditionnelles

Bienvenue dans un changement de paradigme en statistique. Nous passons au-delà de l'intuition simple des « lignes de tendance » vers un cadre rigoureux cadre distributionnel. Ici, nous définissons une relation non pas uniquement par un coefficient de corrélation, mais comme toute variation du comportement probabiliste d'une variable réponse $Y$ lorsque le prédicteur $X$ varie.

Définition 10.1.1 : Le lien statistique

Deux variables $X$ et $Y$ sont considérées liées si il y a une quelconque changement dans la distribution conditionnelle de $Y$, sachant $X = x$, lorsque $x$ change. En revanche, un état de « pas de relation » est mathématiquement équivalent à l'indépendance de $X$ et $Y$.

Équivalence logique

Les variables $X$ et $Y$ sont indépendantes si et seulement si $f(y|x) = f(y)$ pour toutes les valeurs de $x$. Cela implique que la fonction de fréquence relative conjointe peut être factorisée comme suit :

$$f(x, y) = f(x)f(y)$$

Par conséquent, tester une relation est fondamentalement un test d' indépendance.

Mécanismes de changement

Une relation est identifiée par tout déplacement dans la fonction de densité conditionnelle (comme illustré à la figure 10.1.1). Cela inclut :

Décalage de la moyenne : La valeur attendue $E(Y|X)$ change (le cas le plus courant).
Décalage de la variance : L'écart-type ou l'incertitude de $Y$ dépend de $X$ (hétéroscédasticité).
Changement de forme : La distribution globale se transforme (par exemple, d'une distribution symétrique à une distribution asymétrique).

Établir une causalité par la conception

Une relation statistique n'implique pas de causalité. Pour affirmer que $X cause $Y$, nous devons tenir compte des variables de confusion par le biais du plan d'expérience:

Traitements témoins : Fournit une référence pour la comparaison.
Effet placebo : Atténuation de l'amélioration perçue grâce à des traitements inactifs.
Désaveu : En utilisant des expériences en aveugle (les destinataires ignorants) et des expériences à double aveugle (destinataires et chercheurs ignorants) afin d'éliminer tout biais.
Blocs : Comme vu dans Exemple 10.1.7, nous utilisons des variables de blocage ($W$, comme la fertilité du sol) pour garantir que la relation entre le type de blé ($X$) et le rendement ($Y$) ne soit pas faussée par des conditions préexistantes.

🎯 Estimation mathématique fondamentale

Nous estimons ces liens à l'aide de vraisemblance conditionnelle fonctions. Pour des données discrètes avec des comptages $f_{ij}$ :

$$L = \prod_{i=1}^a \prod_{j=1}^b (\theta_{j|X=i})^{f_{ij}}$$ Erreur standard : $SE = \sqrt{\frac{\hat{\theta}_{ij}(1 - \hat{\theta}_{ij})}{n}}$

QUESTION 1

Selon la définition 10.1.1, que doit-il se produire pour que $X$ et $Y$ soient considérés comme liés ?

Le coefficient de corrélation entre $X$ et $Y$ doit être exactement 1.

La distribution conditionnelle de $Y$ sachant $X=x$ doit changer d'une certaine manière lorsque $x$ change.

$X$ et $Y$ doivent avoir une relation fonctionnelle $Y = g(X)$ où $g$ est linéaire.

$X$ et $Y$ doivent être indépendants.

QUESTION 2

Supposons que $Y$ ait une distribution conditionnelle donnée $X$ spécifiée par $N(1 + 2x, |x|)$ lorsque $X = x$. $X$ et $Y$ sont-ils liés ?

Oui, car la moyenne ($1+2x$) et la variance ($|x|$) changent toutes deux lorsque $x$ change.

Non, car $N$ est toujours une distribution normale.

Uniquement si $x$ est un entier positif.

Non, car ils sont indépendants.

QUESTION 3

Dans un essai clinique, quelle est la finalité d'une expérience à double aveugle ?

Pour s'assurer que la taille de l'échantillon est doublée afin d'améliorer la puissance du test.

Pour empêcher à la fois les sujets et les chercheurs de savoir qui a reçu le traitement ou le placebo.

Pour s'assurer que seules deux doses différentes sont testées.

Pour satisfaire les exigences d'une fonction de vraisemblance multinomiale.

QUESTION 4

Pourquoi l'approche fonctionnelle $Y = g(X)$ est-elle souvent insuffisante pour les applications statistiques pratiques ?

Parce que les fonctions mathématiques ne peuvent pas être utilisées en statistique.

Parce que les relations du monde réel impliquent une incertitude stochastique ou des facteurs non observés que $g(x)$ ne capte pas.

Parce que $g(X)$ exige toujours que $X$ soit une variable catégorielle.

Parce que les fonctions de vraisemblance ne fonctionnent qu'avec des variables indépendantes.

QUESTION 5

Supposons que $X$ prenne les valeurs 1 et 2, et que les distributions conditionnelles de $Y$ sachant $X$ soient $N(0, 5)$ lorsque $X = 1$, et $N(0, 7)$ lorsque $X = 2$. $X$ et $Y$ ont-ils une relation ?

Non, car la moyenne est 0 dans les deux cas.

Oui, car la variance (la dispersion) de $Y$ change de 5 à 7.

Non, car une relation nécessite un changement dans la valeur attendue.

Uniquement si $Y$ est une variable discrète.